Op deze pagina wordt een statistische techniek gedemonstreerd aan de hand van een voorbeeld. Meer informatie over hoe je deze pagina kan gebruiken vind je in deze handleiding.

De analyse gebeurt met behulp van R en RStudio. Een inleiding tot deze software vind je hier.

1 Doel

Met de Welch t-toets kan je de verwachtingen in twee groepen met elkaar vergelijken.

Beter alternatief?

De Welch t-toets is een statistische techniek die tegenwoordig minder vaak wordt gebruikt.

De reden hiervoor is dat er een beter alternatief is: het lineair regressiemodel. Een lineair regressiemodel met één categorische predictor met twee niveau’s is equivalent aan de Welch t-toets, maar is bovendien makkelijk uit te breiden naar complexere, wetenschappelijk interessantere situaties: meer dan één predictor, predictoren van verschillend meetniveau, interactie-effecten, enz.

2 Voorbeeld

Voor een studie naar de reactie van volwassenen op auditieve stimuli meet je de variabele “reactiesnelheid” (\(X\)). De reactiesnelheid wordt uitgedrukt in milliseconden (ms). Op basis van eerder onderzoek over visuele stimuli vermoed je dat vrouwen een lagere reactiesnelheid hebben dan mannen.

Je verzamelt gegevens om je vermoeden te onderzoeken. Je trekt een steekproef van mannen en vrouwen bij wie je de reactiesnelheid meet in een labo.

3 Data importeren

De data bij dit voorbeeld kan je met het onderstaande commando importeren in R.

mijn_data <- read.csv("https://statlas.ugent.be/datasets/reactiesnelheid.csv")

Inspecteer de data met de functie str().

str(mijn_data)

'data.frame':   167 obs. of  4 variables:
 $ leeftijd       : num  33.9 40.3 52.4 72.5 30.1 ...
 $ geslacht       : chr  "M" "M" "V" "M" ...
 $ intox          : num  0.163 0.214 0.228 0.312 0.224 ...
 $ reactiesnelheid: num  654 682 649 688 663 ...

4 Hypothesen

De hypothesen die bij deze toets horen zijn:

\(H_0: \mu_M = \mu_V\) of \(\mu_M-\mu_V = 0\)

\(H_a: \mu_M > \mu_V\) of \(\mu_M-\mu_V > 0\)

De alternatieve hypothese \(H_a\) is hier eenzijdig. Meer uitleg over eenzijdig versus tweezijdig toetsen vind je hier.

5 Data verkennen

In dit voorbeeld wil je mannen en vrouwen vergelijken. Een eerste visuele indruk van de gegevens kan je verkrijgen door twee boxplots te maken: één voor mannen en één voor vrouwen.

boxplot(reactiesnelheid ~ geslacht, data=mijn_data)

Het doel is om een uitspraak te doen over twee verwachtingen. Daarvoor zal je de steekproefgemiddeldes vergelijken. Verderop zal je zien hoe een volwaardige toets eruit ziet, maar hier in de verkennende fase kan je al beide steekproefgemiddeldes berekenen om een eerste zicht te krijgen op de data.

Eerst deel je de data op: met behulp van vierkante haakjes creëer je een aparte vector voor vrouwen en een aparte vector voor mannen.

reactiesnelheid.V <- mijn_data$reactiesnelheid[mijn_data$geslacht=="V"]

reactiesnelheid.M <- mijn_data$reactiesnelheid[mijn_data$geslacht=="M"]

Het object reactiesnelheid.V bevat de reactiesnelheid van alle vrouwen in de steekproef. Het object reactiesnelheid.M bevat de reactiesnelheid van alle mannen.

Met de functie mean() kan je nu het gemiddelde bij de vrouwen en bij de mannen oproepen.

mean(reactiesnelheid.V)

[1] 653.669

mean(reactiesnelheid.M)

[1] 663.7665

Het gemiddelde bij de vrouwen is \(653.6690476\) en bij de mannen \(663.766506\). Het doel van de toets zal zijn om na te gaan of dit verschil tussen de steekproefgemiddeldes te wijten kan zijn aan toeval.

6 Keuze toets

Je wil de verwachtingen in twee groepen vergelijken. De steekproeven zijn onafhankelijk: er is geen directe link tussen een meting uit de ene groep en een meting uit de andere groep.

De toets die je nodig hebt is de Welch t-toets.

Assumpties

\(X\) moet tenminste van intervalniveau zijn. Dat is het geval in dit voorbeeld.
\(X\) moet
1. ofwel normaal verdeeld zijn in elke populatie (mannen en vrouwen)
2. ofwel moet elke steekproef groot genoeg zijn. De vuistregel is \(n \geq 30\).
Om te weten hoeveel mannen en hoeveel vrouwen er zijn, kan je de lengte van de relevante vectoren opvragen met de functie length().
```
n.V <- length(reactiesnelheid.V)
n.V
```
```
[1] 84
```
```
n.M <- length(reactiesnelheid.M)
n.M
```
```
[1] 83
```
Beide steekproeven zijn dus voldoende groot.

Om voorzichtig te zijn kan je toch ook de normaliteit visueel inspecteren met een QQ-plot.
```
qqnorm(reactiesnelheid.M)
qqline(reactiesnelheid.M)
```
```
qqnorm(reactiesnelheid.V)
qqline(reactiesnelheid.V)    
```
Je ziet dat zowel bij mannen als bij vrouwen de data niet heel ver afwijken van de diagonale lijn.

Je kan dus de Welch t-toets uitvoeren.

7 Significantieniveau

Voor je de toets uitvoert, moet je een significantieniveau \(\alpha\) kiezen.

alpha <- 0.05

8 Toets

Eerder heb je de data al opgedeeld in twee vectoren: één met de data van de mannen en één met de data van de vrouwen.

Met onderstaande code kan je nu de Welch t-toets uitvoeren.

t.test(x=reactiesnelheid.V, y=reactiesnelheid.M, alternative="less", conf.level=1-alpha)


    Welch Two Sample t-test

data:  reactiesnelheid.V and reactiesnelheid.M
t = -2.1267, df = 150.8, p-value = 0.01753
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
      -Inf -2.239684
sample estimates:
mean of x mean of y 
 653.6690  663.7665

9 Conclusie

Je stelt vast dat de p-waarde \(0.0175343 < 0.05\). De data bevatten dus voldoende sterk bewijs tegen de nulhypothese. Je verwerpt bijgevolg de nulhypothese op het \(5\%\) significantieniveau.

Je kan tot dezelfde conclusie komen aan de hand van het betrouwbaarheidsinterval. Je stelt vast dat de waarde \(0\) zich niet in het \(95\%\) betrouwbaarheidsinterval \(]-\infty{}, -2.2396845]\) bevindt. De nulhypothese, die stelt dat er geen verschil is tussen beide groepen, is dus niet compatibel met de geobserveerde data. Je verwerpt bijgevolg de nulhypothese op het \(5\%\) significantieniveau.

10 Alternatieven

Het is mogelijk dat niet aan de assumpties bij de Welch t-toets is voldaan in jouw onderzoek. Een mogelijk alternatief is om dan een Mann-Whitney-Wilcoxon toets uit te voeren.

Toets voor twee verwachtingen - onafhankelijke steekproeven